Average word length | # of sentences | Source |
---|---|---|
7.11 | 10 | http://yi.wikipedia.org/wiki/רבי_שמעון_בר_יוחאי |
8.87 | 11 | http://yi.wikipedia.org/wiki/תלמידי_בעש"ט |
9.07 | 15 | http://yi.wikipedia.org/wiki/ראד |
9.22 | 12 | http://yi.wikipedia.org/wiki/בית_מדרש_גבוה |
9.24 | 13 | http://yi.wikipedia.org/wiki/נחמן_מברסלב |
9.26 | 11 | http://yi.wikipedia.org/wiki/אנטיסעמיטיזם_אין_רוסלאנד |
9.33 | 11 | http://yi.wikipedia.org/wiki/פרקי_דרבי_אליעזר |
9.49 | 15 | http://yi.wikipedia.org/wiki/שרעק |
9.50 | 11 | http://yi.wikipedia.org/wiki/שלום_קרויז |
9.55 | 17 | http://yi.wikipedia.org/wiki/משה_יהושע_האגער |
9.56 | 10 | http://yi.wikipedia.org/wiki/ברויט |
9.56 | 12 | http://yi.wikipedia.org/wiki/מאגלעוו_באן |
9.58 | 31 | http://yi.wikipedia.org/wiki/אביגדור_מילער |
9.61 | 11 | http://yi.wikipedia.org/wiki/סטאטוע_פון_ליבערטי |
9.62 | 156 | http://yi.wikipedia.org/wiki/מנחם_מענדל_בייליס |
9.63 | 10 | http://yi.wikipedia.org/wiki/פרייד |
9.71 | 21 | http://yi.wikipedia.org/wiki/דן_אונגארישער |
9.72 | 29 | http://yi.wikipedia.org/wiki/שלאף |
9.74 | 15 | http://yi.wikipedia.org/wiki/די_חקירה_פון_מענדל_בייליס |
9.75 | 16 | http://yi.wikipedia.org/wiki/בענזין_פרייזן |
9.81 | 16 | http://yi.wikipedia.org/wiki/שיצפאס |
9.83 | 12 | http://yi.wikipedia.org/wiki/ליפט |
9.86 | 10 | http://yi.wikipedia.org/wiki/פלאמבינג |
9.88 | 11 | http://yi.wikipedia.org/wiki/אליגאטאר |
9.88 | 11 | http://yi.wikipedia.org/wiki/שניי |
9.89 | 12 | http://yi.wikipedia.org/wiki/לופטקילער |
9.92 | 23 | http://yi.wikipedia.org/wiki/מאדים |
9.92 | 11 | http://yi.wikipedia.org/wiki/וואלפיש |
9.93 | 29 | http://yi.wikipedia.org/wiki/אנקלאגע |
9.96 | 12 | http://yi.wikipedia.org/wiki/סמארט_קאר |
Average word length | # of sentences | Source |
---|---|---|
12.48 | 10 | http://yi.wikipedia.org/wiki/איזאפאד |
11.78 | 11 | http://yi.wikipedia.org/wiki/אינדאנעזיע |
11.71 | 28 | http://yi.wikipedia.org/wiki/קאנטערטעראריזם |
11.67 | 11 | http://yi.wikipedia.org/wiki/יידישע_אויסלייגן |
11.51 | 10 | http://yi.wikipedia.org/wiki/פאקיסטאן |
11.50 | 46 | http://yi.wikipedia.org/wiki/קאמוניזם |
11.37 | 82 | http://yi.wikipedia.org/wiki/קאנאדע |
11.37 | 48 | http://yi.wikipedia.org/wiki/דייטשלאנד |
11.31 | 47 | http://yi.wikipedia.org/wiki/היסטאריע_פון_דייטשלאנד |
11.31 | 48 | http://yi.wikipedia.org/wiki/היסטאריע_פון_קאנאדע |
11.30 | 24 | http://yi.wikipedia.org/wiki/פאראייניגטע_פעלקער |
11.28 | 52 | http://yi.wikipedia.org/wiki/פאראייניגטע_קעניגרייך |
11.22 | 36 | http://yi.wikipedia.org/wiki/היסטאריע_פונעם_פאראייניגטן_קעניגרייך |
11.20 | 10 | http://yi.wikipedia.org/wiki/הידראגען_עקאנאמיע |
11.19 | 21 | http://yi.wikipedia.org/wiki/היסטאריע_פון_רוסלאנד |
11.15 | 30 | http://yi.wikipedia.org/wiki/צווייטע_וועלט-מלחמה |
11.13 | 14 | http://yi.wikipedia.org/wiki/עסן |
11.10 | 96 | http://yi.wikipedia.org/wiki/רוסלאנד |
11.08 | 26 | http://yi.wikipedia.org/wiki/עקאנאמיע_פון_מעקסיקע |
11.05 | 12 | http://yi.wikipedia.org/wiki/װעלט_געזונט_ארגאניזאציע |
11.02 | 47 | http://yi.wikipedia.org/wiki/מעקסיקע |
11.02 | 17 | http://yi.wikipedia.org/wiki/יו-עס_קאסטומס_ענד_בארדער_פראטעקשן |
11.02 | 11 | http://yi.wikipedia.org/wiki/לופט_פראכט |
11.00 | 112 | http://yi.wikipedia.org/wiki/כינע |
11.00 | 23 | http://yi.wikipedia.org/wiki/פליפעלד |
10.97 | 27 | http://yi.wikipedia.org/wiki/עקאנאמיע_פון_דעם_פאראייניגטן_קעניגרייך |
10.96 | 10 | http://yi.wikipedia.org/wiki/קאכן_די_ביכער |
10.90 | 15 | http://yi.wikipedia.org/wiki/פאראייניקטע_שטאטן_פון_אמעריקע |
10.89 | 33 | http://yi.wikipedia.org/wiki/עקאנאמיע_פון_קאנאדע |
10.88 | 14 | http://yi.wikipedia.org/wiki/בעלגיע |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words